डेटा साइंस ने नॉलेज डिस्कवरी इन डेटाबेस (KDD) और वेरी लार्ज डेटा बेस (VLDB) सम्मेलनों के शुरुआती दिनों से एक लंबा सफर तय किया है। 1980-90 के दशक में डेटाबेस को संभालने वाले सॉफ्टवेयर इंजीनियर 2000 के दशक में विशेष डेटाबेस इंजीनियरों के रूप में विकसित हुए। इस बीच कंप्यूटर वैज्ञानिकों की जेबें छोटे अनुसंधान प्रयोगशालाओं में मशीन लर्निंग और आर्टिफिशियल इंटेलिजेंस पर प्रयोग करती हैं। बिग डेटा 2010 के कैम्ब्रियन विस्फोट में टकराए गए स्मार्ट एल्गोरिदम से मिलता है, जिससे " डेटा साइंटिस्ट: द सेक्सिएस्ट जॉब ऑफ द 21 सेंचुरी " बन जाता है। यह हमें एक दशक बाद, महामारी के बाद 2022 में लाता है, यह सवाल पूछता है, " क्या डेटा साइंटिस्ट अभी भी 21 वीं सदी का सबसे कामुक काम है? "
शॉर्ट कट-अवे को क्षमा करें, लेकिन यह लेख 2022 के नूनीज़ अवार्ड के संयोजन में लिखा गया है। हैकरनून के 2002 के नूनी अवार्ड्स तकनीकी लेखकों को तकनीक की सभी चीजों में अपनी सर्वश्रेष्ठ और उज्ज्वल अंतर्दृष्टि साझा करने का जश्न मनाते हैं।
एक औपचारिक परिचय:
हाय, मैं लिलिंग कर रहा हूँ। दिन में, मैं अमेज़ॅन में एक अनुप्रयुक्त वैज्ञानिक हूं और काम के बाद, मैं खुले स्रोत को कोड करता हूं और प्राकृतिक भाषा प्रक्रिया पर तकनीकी लेख लिखता हूं और कभी-कभी गेमिंग पॉप-संस्कृति पर लेख लिखता हूं।
हैकरनून कंट्रीब्यूटर ऑफ द ईयर फॉर नेचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) श्रेणी में नामांकित होना एक खुशी और सम्मान की बात है और यदि आपने एनएलपी या मशीन अनुवाद सामग्री का आनंद लिया है जिसे मैं साझा कर रहा हूं, तो https पर वोट बटन को तोड़ने में मदद करें: //www.noonies.tech/2022/programming/2022-hackernoon-contributor-of-the-year-natural-language-processing
नामांकन का जश्न मनाने के लिए, मैं इस लेख को "मुझसे कुछ भी पूछें" प्रश्न और उत्तर प्रारूप में लिख रहा हूं।
एक तकनीकी लेखक के रूप में, मुझे मशीन लर्निंग में उभरती हुई तकनीकों को साझा करना पसंद है और मेरे पास भाषा और अनुवाद संबंधी तकनीकों का एक विशेष सॉफ्ट-स्पॉट है। नामांकन का जश्न मनाने के लिए, मैं इस लेख को "मुझसे कुछ भी पूछें" प्रश्न और उत्तर प्रारूप में लिख रहा हूं। “ मैं किस तरह का वैज्ञानिक हूँ” के बारे में मेरे विचारों और विचारों के बारे में और जानें? "तकनीक उद्योग में निम्नलिखित अनुभागों में।
आजकल, " डेटा वैज्ञानिकों " के लिए नौकरी का विवरण विभिन्न रूपों में आता है और यह मोटे तौर पर इन श्रेणियों के अंतर्गत आता है:
यदि आप किसी से अलग-अलग नौकरी के शीर्षक की भूमिका और जिम्मेदारियों के बीच अंतर के बारे में पूछते हैं, तो आप शायद एक अस्पष्ट रेखा के साथ समाप्त हो जाएंगे जो उनमें से प्रत्येक को चित्रित करती है।
यदि आप किसी से अलग-अलग नौकरी के शीर्षक की भूमिका और जिम्मेदारियों के बीच अंतर के बारे में पूछते हैं, तो आप शायद एक अस्पष्ट रेखा के साथ समाप्त हो जाएंगे जो उनमें से प्रत्येक को चित्रित करती है। वास्तव में, यह आमतौर पर काम का एक अस्पष्ट अतिव्यापी दायरा होता है जो कंपनी और टीम की भूमिका परिभाषाओं के आधार पर भिन्न होता है। मुख्य अंतर आमतौर पर "वैज्ञानिक" और "इंजीनियर" भूमिकाओं के बीच आता है, जहां वैज्ञानिक से आमतौर पर डेटा और मॉडल गुणवत्ता पक्ष पर अधिक ध्यान केंद्रित करने की अपेक्षा की जाती है, जबकि इंजीनियर मॉडल अखंडता और सेवा विश्वसनीयता पर अधिक ध्यान केंद्रित करता है।
यह आमतौर पर " वैज्ञानिकों " की जिम्मेदारी है। उद्योग में, यह अलग-अलग कार्य और अनुप्रयोगों के लिए विशिष्ट है जो टीम समर्थन करती है और/या विकसित करती है। यह मशीन लर्निंग मॉडल बनाने वाले अकादमिक शोधकर्ताओं के समान है, लेकिन अंतिम मॉडल प्रयोग करने योग्य है या नहीं, इसकी व्यावहारिकता आमतौर पर उद्योग में अत्याधुनिक परिणामों को मात देने की आवश्यकता को कम करती है।
यह आमतौर पर " इंजीनियरों " की जिम्मेदारी है। विश्वसनीयता आज किसी भी आधुनिक मशीन लर्निंग एप्लिकेशन के लिए महत्वपूर्ण है। यह सुनिश्चित करना महत्वपूर्ण है कि ग्राहकों/उपयोगकर्ताओं के लिए सर्वोत्तम मॉडल तैयार करने के वैज्ञानिकों के कार्बन-उत्सर्जित प्रयास उत्पादन में अपेक्षित प्रदर्शन उत्पन्न करते हैं।
एक वैज्ञानिक का " यह मेरे लैपटॉप पर काम करता है " कथन उद्योग में अस्वीकार्य है और इंजीनियरों ने " यह कहीं भी काम करता है " एक सपने को सच करने में मदद करता है।
मॉडल प्रशिक्षण और परिनियोजन को स्वचालित करने के लिए ढांचे का निर्माण और रखरखाव
यह सुनिश्चित करना कि प्रायोगिक परियोजनाओं में किए गए फीचर/सुधार उत्पादन मॉडल में उपलब्ध हैं
वैज्ञानिकों के मॉडल को उत्पादन में लाने के लिए मैनुअल चरणों को कम/समाप्त करने के लिए प्रयोगात्मक सेटअप को स्वचालित करने के लिए वृद्धिशील सुधार।
आधुनिक दिनों में, कभी-कभी इन इंजीनियरिंग जिम्मेदारियों को मशीन लर्निंग ऑपरेशंस (MLOps) के रूप में जाना जाता है, Chip Huyen के पास एक अच्छा ब्लॉगपोस्ट है जो इच्छुक ML/Data/Research इंजीनियरों के लिए MLOps पर एक सिंहावलोकन देता है ।
मशीन लर्निंग, डेटा, एप्लाइड, रिसर्च साइंटिस्ट/इंजीनियर क्या करते हैं, इसकी कई अन्य परिभाषाएँ हैं लेकिन उपरोक्त मेरे व्यक्तिगत उद्योग के अनुभव से है।
निर्भर करता है! और जैसा कि पहले चर्चा की गई है, यह कंपनी से टीम में भिन्न होता है और नौकरी आवेदन प्रक्रिया के दौरान हर किसी को हमेशा भर्ती प्रबंधक से अपेक्षित जिम्मेदारियों के बारे में पूछना चाहिए।
एक अच्छा वैज्ञानिक कुछ इंजीनियरिंग कार्य करने में सक्षम होना चाहिए। इसके विपरीत, एक अच्छा इंजीनियर कुछ मशीन लर्निंग मॉडल बनाने में सक्षम होना चाहिए।
व्यक्तिगत रूप से, एक वैज्ञानिक के रूप में, ये मेरी सलाह है जो मैं महत्वाकांक्षी/नए वैज्ञानिकों को देता हूं:
और एक अंतिम नोट जो मैं हमेशा खुद को याद दिलाने की कोशिश करता हूं,
पी/एस: एक इंजीनियर एक वैज्ञानिक से बेहतर मॉडल को प्रशिक्षित कर सकता है।
भूमिकाएं और जिम्मेदारी के अनुसार, वे समान हैं लेकिन व्यावहारिक रूप से कुछ कंपनियों के पास विभिन्न वैज्ञानिकों के पदों के बीच स्पष्ट सीमांकन हो सकता है, इसलिए हमेशा मानव संसाधन (एचआर) कर्मियों या भर्ती प्रबंधक के रूप में यदि " भूमिका दिशानिर्देश " को साझा करना संभव है जिस पद पर आप आवेदन कर रहे हैं और कंपनी और टीम में शामिल होने के बाद अपनी भूमिका की अपेक्षाओं को समझने के लिए विशेष रूप से महत्वपूर्ण है ।
मैं ज्यादातर मामलों में व्यक्तिगत रूप से एक " व्यावहारिक " हूं, लेकिन जब "आटा" की बात आती है, तो https://www.levels.fyi/ और कंपनी के बारे में अधिक जानने के लिए कंपनियों में दोस्तों/वरिष्ठों से पूछना आपकी सबसे अच्छी शर्त है। और उनका मुआवजा।
मेरी व्यक्तिगत राय:
"इसे पैसे के लिए मत करो" ओवर-रेटेड है। इसे करने के प्यार के लिए करो। मुझे संख्याओं और भाषा डेटा को देखने में मज़ा आता है, इस प्रकार एनएलपी। लेकिन इसे करने के लिए पर्याप्त भुगतान प्राप्त करना याद रखें =)
मैंने मशीन लर्निंग के क्षेत्र में वैज्ञानिकों और इंजीनियरों के बीच के अंतरों पर चर्चा की है और अब मैं एक ऐसे महत्वपूर्ण प्रश्न का उत्तर देने का प्रयास करूँगा जो लगभग सभी वैज्ञानिक पूछेंगे:
यह आमतौर पर " एक अच्छा प्रश्न कैसे पूछें " गाइड के अनुसार स्टैक ओवरफ्लो प्रश्नों का सबसे खराब रूप है, लेकिन मुझे लगता है कि यह ऐसा कुछ है जिसे समुदाय को जब भी हम कर सकते हैं उत्तर देने का प्रयास करना चाहिए।
मेरी व्यक्तिगत राय:
इन व्यावहारिक प्रश्नों पर कोई "बुरा" प्रश्न या "अधिक ध्यान देने की आवश्यकता नहीं है"। लेकिन यह अनिवार्य रूप से कभी-कभी दुर्भावनापूर्ण उत्पाद/तकनीकी विज्ञापन को आकर्षित करता है।
साहित्य की समीक्षा
जानें कि कौन से डेटासेट उपलब्ध हैं और उनमें क्या है (शोर, विचित्रता, आदि)
पता लगाएं कि कौन सा मूल्यांकन मीट्रिक कार्य X है जिसका आमतौर पर मूल्यांकन किया जाता है
कार्य के सबसे पुराने प्रासंगिक उद्धरण को ट्रैक करें , उस पेपर को पढ़ें
कार्य के लिए उच्चतम उद्धृत पेपर खोजें , इसे अपनी आधार रेखा के रूप में उपयोग करें
कार्य के लिए अपने सफलता मानदंड को औद्योगिक रूप से परिभाषित करें (यह कार्य के लिए मानक eval मीट्रिक नहीं हो सकता है)
आधार रेखा को दोहराने या फिर से लागू करने का प्रयास करें
इंजीनियरों को अपने मॉडल/पुस्तकालयों के बारे में बताएं । क्या आपका इंजीनियर इसका उत्पादन कर सकता है?
क्या बेसलाइन सफलता के मानदंडों को पूरा करती थी? व्यवसाय/परियोजना हितधारक से पूछें कि क्या यह पर्याप्त है
इसे बनाएं, इसका परीक्षण करें, इसे तोड़ें, दोहराएं!
व्यक्तिगत अनुभव से, उपकरण/मॉडल जो इसे आपके ग्राहकों के हाथ में बनाता है, आमतौर पर ऊपर वर्णित दृष्टिकोण के चरण 6 से 9 पर बहुत अधिक निर्भर करता है।
इस समय, मैं अपना खाली समय हगिंगफेस के बारे में सीखने में बिता रहा हूं - और न केवल पुस्तकालय के विभिन्न घटकों का उपयोग करने के बारे में, बल्कि यह समझने में कि कौन सी विशेषताएं इसे सफल बनाती हैं और एक्स-फैक्टर क्या है जिसने इसे कर्षण प्राप्त किया मशीन लर्निंग कम्युनिटी में।
और अगली चीज जिसमें मैं अपना समय निवेश करूंगा वह है क्वांटम एमएल, अगर मेरे पास और भी समय है =)
मुझे उम्मीद है कि उपरोक्त प्रश्न और जैसा कि आपको " मैं किस तरह का वैज्ञानिक हूं " के बारे में कुछ जानकारी देता हूं। और अगर और भी ज्वलंत प्रश्न हैं जो आप पूछना चाहते हैं, तो बेझिझक टिप्पणी को पोस्ट के नीचे छोड़ दें।
अंत में, मैं Noonie पुरस्कार नामांकन के लिए HackerNoon समुदाय, कर्मचारियों और प्रायोजकों को बहुत-बहुत धन्यवाद देना चाहता हूं और यदि आप इस लेख का आनंद लेते हैं, तो https://www.noonies.tech/2022/programming/2022- पर वोट बटन को तोड़ने में मदद करें। हैकरनून-योगदानकर्ता-ऑफ-द-ईयर-प्राकृतिक-भाषा-प्रसंस्करण